We propose LiDAL, a novel active learning method for 3D LiDAR semantic segmentation by exploiting inter-frame uncertainty among LiDAR frames. Our core idea is that a well-trained model should generate robust results irrespective of viewpoints for scene scanning and thus the inconsistencies in model predictions across frames provide a very reliable measure of uncertainty for active sample selection. To implement this uncertainty measure, we introduce new inter-frame divergence and entropy formulations, which serve as the metrics for active selection. Moreover, we demonstrate additional performance gains by predicting and incorporating pseudo-labels, which are also selected using the proposed inter-frame uncertainty measure. Experimental results validate the effectiveness of LiDAL: we achieve 95% of the performance of fully supervised learning with less than 5% of annotations on the SemanticKITTI and nuScenes datasets, outperforming state-of-the-art active learning methods. Code release: https://github.com/hzykent/LiDAL.
translated by 谷歌翻译
近年来,由于强大的3D CNN,基于体素的方法已成为室内场景3D语义分割的最新方法。然而,基于体素的方法忽略了基础的几何形状,由于缺乏地理位置信息而在空间上闭合物体上的模棱两可的特征遭受了含糊的特征,并努力处理复杂和不规则的几何形状。鉴于此,我们提出了Voxel-Mesh网络(VMNET),这是一种新颖的3D深度体系结构,该架构在Voxel和网格表示上运行,并利用了欧几里得和地球信息。从直觉上讲,从体素中提取的欧几里得信息可以提供代表附近对象之间交互的上下文提示,而从网格中提取的地理信息可以帮助空间上接近但断开表面的分离对象。为了合并两个域中的此类信息,我们设计了一个内域的专注模块,以进行有效的特征聚集和一个用于自适应特征融合的专注于域间的模块。实验结果验证了VMNET的有效性:具体而言,在具有挑战性的扫描仪数据集上,用于大规模的室内场景分割,它的表现优于最先进的Sparseconvnet和Minkowskownet(74.6%vs 72.5%和73.6%)更简单的网络结构(17m vs 30m和38m参数)。代码发布:https://github.com/hzykent/vmnet
translated by 谷歌翻译
This paper presents a pre-training technique called query-as-context that uses query prediction to improve dense retrieval. Previous research has applied query prediction to document expansion in order to alleviate the problem of lexical mismatch in sparse retrieval. However, query prediction has not yet been studied in the context of dense retrieval. Query-as-context pre-training assumes that the predicted query is a special context for the document and uses contrastive learning or contextual masked auto-encoding learning to compress the document and query into dense vectors. The technique is evaluated on large-scale passage retrieval benchmarks and shows considerable improvements compared to existing strong baselines such as coCondenser and CoT-MAE, demonstrating its effectiveness. Our code will be available at https://github.com/caskcsg/ir/tree/main/cotmae-qc .
translated by 谷歌翻译
本文重新讨论了一个非常简单但非常有效的计算范式,深度共同学习(DML)。我们观察到,有效性与其出色的概括质量高度相关。在本文中,我们从新的角度来解释了DML的性能改善,即这大约是贝叶斯后的采样程序。这也为应用R \'{e} nyi Divergence改善原始DML的基础建立了基础,因为它带来了先验的差异控制(在DML的上下文中)。因此,我们提出了r \'{e} nyi Divergence深度共同学习(RDML)。我们的经验结果代表了DML和\ renyi {}差异的婚姻的优势。R \'{E} nyi Divergence施加的灵活控制能够进一步改进DML,以学习更好的广义模型。
translated by 谷歌翻译
密集的段落检索旨在根据查询和段落的密集表示(即矢量)从大型语料库中检索查询的相关段落。最近的研究探索了改善预训练的语言模型,以提高密集的检索性能。本文提出了COT-MAE(上下文掩盖自动编码器),这是一种简单而有效的生成性预训练方法,可用于密集通道检索。 COT-MAE采用了不对称的编码器架构,该体系结构学会通过自我监督和上下文监督的掩盖自动编码来将句子语义压缩到密集的矢量中。精确,自我监督的掩盖自动编码学会学会为文本跨度内的令牌的语义建模,并学习上下文监督的蒙版自动编码学学习以建模文本跨度之间的语义相关性。我们对大规模通道检索基准进行实验,并显示出对强基础的大量改进,证明了COT-MAE的效率很高。
translated by 谷歌翻译
通常对视觉动作识别的机器学习模型进行了对与某些对象相关联的特定情况的数据训练和测试。这是一个悬而未决的问题,训练集中的行动对象关联如何影响模型超出受过训练情况的能力。我们着手确定培训数据的属性,这些训练数据可导致具有更大泛化能力的行动识别模型。为此,我们从一种称为跨态学习的认知机制中汲取灵感,该机制指出,人类学习者通过在不同情况下观察相同概念的实例来提取概念的含义。我们对各种类型的动作对象关联进行受控实验,并在训练数据中识别动作对象共发生的关键特性,从而导致更好的分类器。鉴于数据集中缺少这些属性,这些属性通常用于培训计算机视觉文献中的动作分类器,因此我们的工作提供了有关如何最好地构建数据集以有效培训以进行更好概括的有用见解。
translated by 谷歌翻译
在最新的联合学习研究(FL)的研究中,广泛采用了客户选择方案来处理沟通效率的问题。但是,从随机选择的非代表性子集汇总的模型更新的较大差异直接减慢了FL收敛性。我们提出了一种新型的基于聚类的客户选择方案,以通过降低方差加速FL收敛。简单而有效的方案旨在改善聚类效果并控制效果波动,因此,以采样的一定代表性生成客户子集。从理论上讲,我们证明了降低方差方案的改进。由于差异的差异,我们还提供了提出方法的更严格的收敛保证。实验结果证实了与替代方案相比,我们计划的效率超出了效率。
translated by 谷歌翻译
理论思想和实证研究向我们展示了一个看似令人惊讶的结果:孩子,甚至很年轻的孩子,都以与正式研究中的科学推理非常相似的方式展示学习和思考。遇到一种新现象,儿童对数据提出假设,从观察进行因果推断,通过实验检验其理论,并纠正是否出现不一致的命题。此类过程的回合一直持续到发现基本机制为止。建立可以像人一样学习和思考的机器,我们要问的一个自然的问题是:我们今天实现的智能是否设法执行这样的科学思维过程,以及在什么水平上进行的。在这项工作中,我们设计了EST环境,以评估人造药物中的科学思维能力。在因果发现的研究流中,我们基于爆炸检测来构建我们的交互式EST环境。具体而言,在EST的每个情节中,都会呈现一个新颖的观察结果,并要求找出所有对象的衰落。在每个时间步骤中,代理都提出了新的实验来验证其假设并更新其当前信念。通过在此任务的象征和视觉版本上评估强化学习(RL)代理,我们注意到当今学习方法的明显失败在达到与人类相当的智力水平方面。科学思维中学习的这种效率低下,需要在建立人类智能方面进行未来的研究。
translated by 谷歌翻译
本文认为增量少量学习,这需要一个模型,不断识别新类别,只有一些例子。我们的研究表明,现有方法严重遭受灾难性的遗忘,是一个增量学习中的一个众所周知的问题,这是由于少量拍摄设置中的数据稀缺和不平衡而加剧。我们的分析进一步表明,为了防止灾难性的遗忘,需要在原始阶段采取行动 - 基础类别的培训而不是稍后的几秒钟学习会议。因此,我们建议寻找基本训练目标函数的扁平本地最小值,然后在新任务中微调平面区域内的模型参数。通过这种方式,模型可以在保留旧的时有效地学习新类。综合实验结果表明,我们的方法优于所有现有最先进的方法,并且非常接近近似上限。源代码可在https://github.com/moukamisama/f2m上获得。
translated by 谷歌翻译
最先进的无监督的RE-ID方法使用基于内存的非参数软制AX丢失训练神经网络。存储在存储器中的实例特征向量通过群集和更新在实例级别中分配伪标签。然而,不同的簇大小导致每个群集的更新进度中的不一致。为了解决这个问题,我们呈现了存储特征向量的集群对比度,并计算群集级别的对比度损耗。我们的方法采用唯一的群集表示来描述每个群集,从而产生群集级存储字典。以这种方式,可以有效地保持聚类的一致性,在整个阶段,可以显着降低GPU存储器消耗。因此,我们的方法可以解决集群不一致的问题,并且适用于较大的数据集。此外,我们采用不同的聚类算法来展示我们框架的鲁棒性和泛化。与标准无监督的重新ID管道的集群对比的应用达到了9.9%,8.3%,12.1%的显着改善,而最新的无人纯粹无监督的重新ID方法和5.5%,4.8%,4.4%地图相比与市场,公爵和MSMT17数据集上的最先进的无监督域适应重新ID方法相比。代码可在https://github.com/alibaba/cluster-contrast获得。
translated by 谷歌翻译